De lerende AI gebruikt Q-learning om perfect te leren spelen. De "Q" staat voor "quality" oftewel kwaliteit. De AI is op zoek naar de zet met de hoogste kwaliteit. Het werkt als volgt:
De leerformule bepaalt hoe de scores voor de gedane zetten wordt aangepast nadat het potje voorbij is. Vanzelfsprekend wordt de score hoger bij winst en lager bij verlies. De berekening gaat als volgt:
nieuwe_score = oude_score * (1 - L) + resultaat * L
Hierbij is L de "leersnelheid". Dit is een getal dat we zelf kunnen kiezen. De leersnelheid zit tussen 0 en 1 in.
Als de leersnelheid gelijk is aan 0, dan doet het resultaat er niet toe en is de nieuwe score altijd gelijk aan de oude score.
Als de leersnelheid gelijk is aan 1, dan doet de oude score er niet toe en is de nieuwe score compleet gelijk aan het resultaat.
De hexapawn AI heeft een leersnelheid van 0,5. Dat betekent dat de nieuwe score steeds een mix is tussen de oude score en het resultaat. Als je met een bepaalde zet steeds wint, zal de score steeds dichter de 1 naderen.
Het spel hexapawn is zo eenvoudig, dat je zelfs met luciferdoosjes een lerende AI kunt bouwen. Zie het filmpje hieronder: